Extraction des itemsets fréquents à partir de données évidentielles : application à une base de données éducationnelles
نویسندگان
چکیده
Résumé. Dans cet article, nous étudions le problème de l’extraction des itemsets fréquents (EIF) à partir de données imparfaites, et plus particulièrement ce qu’on appelle désormais les données évidentielles. Une base de données évidentielle stocke en effet des données dont l’imperfection est modélisée via la théorie de l’évidence. Nous introduisons une nouvelle approche d’EIF qui se base sur une structure de données de type arbre. Cette structure est adaptée à la nature complexe des données. La technique que nous avons conçue, génère jusqu’à 50% de la totalité des itemsets fréquents lors du premier parcours de l’arbre. Elle a été appliquée sur des bases de données synthétiques ainsi que sur une base de données éducationnelles. Les expérimentations menées sur la nouvelle méthode, montrent qu’elle est plus performante en terme de temps d’exécution en comparaison avec les méthodes existantes d’EIF.
منابع مشابه
Extraction d'itemsets compacts
Résumé. L’extraction d’itemsets fréquents est un sujet majeur de l’ECD et son but est de découvrir des corrélations entre les enregistrements d’un ensemble de données. Cependant, le support est calculé en fonction de la taille de la base dans son intégralité. Dans cet article, nous montrons qu’il est possible de prendre en compte des périodes difficiles à déceler dans l’organisation des données...
متن کاملExtension des bases de données inductives pour la découverte de chroniques
Résumé. Les bases de données inductives intègrent le processus de fouille de données dans une base de données qui contient à la fois les données et les connaissances induites. Nous nous proposons d’étendre les données traitées afin de permettre l’extraction de motifs temporels fréquents et non fréquents à partir d’un ensemble de séquences d’évènements. Les motifs temporels visés sont des chroni...
متن کاملApprentissage de signatures de facteurs de transcription à partir de données d'expression
Résumé. L’inférence de signatures de facteurs de transcription à partir des données puces à ADN a déjà été étudié dans la communauté bioinformatique. La principale difficulté à résoudre est de trouver un ensemble d’heuristiques pertinentes, afin de contrôler la complexité de résolution de ce problème NP-difficile. Nous proposons dans cet article une solution heuristique alternative à celles uti...
متن کاملDétection de données aberrantes à partir de motifs fréquents sans énumération exhaustive
Résumé. La détection de données aberrantes (outliers) consiste à détecter des observations anormales au sein des données. Durant la dernière décennie, des méthodes de détection d’outliers utilisant les motifs fréquents ont été proposées. Elles extraient dans une première phase tous les motifs fréquents, puis assignent à chaque transaction un score mesurant son degré d’aberration (en fonction du...
متن کاملEstimation de la fiabilité des sources des bases de données évidentielles
Résumé. Dans cet article, nous proposons une méthode permettant l’estimation des fiabilités 1 des sources à partir de toutes leurs fonctions de croyance stockées dans des bases de données évidentielles. Nous proposons également d’assurer le même niveau de fiabilité pour toutes ces fonctions de croyance. Les degrés de fiabilité des sources sont utilisés pour affaiblir leurs fonctions de croyance...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2011